ESIEA Datalab Logiciel de Nettoyage et Préparation de Données

نویسنده

  • Christopher Corsia
چکیده

Il est communément admis que le temps de préparation des données peut occuper jusqu’à 80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire erreurs et incohérences dans une table de données. ESIEA Datalab est une plateforme évolutive programmée en Java qui met à disposition de nombreux outils pour aider à la détection d’incohérences, la correction d’erreurs, la transformation ou la contrainte de variables, etc.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Coron : Plate-forme d'extraction de connaissances dans les bases de données

Né d’un besoin logiciel pour une étude de cohorte [1], CORON est maintenant une plate-forme logicielle d’extraction de connaissances à part entière, utilisée dans divers domaines, voir par exemple [4, 5, 6]. Destinée à un usage scientifique et pédagogique, la plate-forme CORON s’articule autour de plusieurs modules pour la préparation puis la fouille de données, le filtrage et l’interprétation ...

متن کامل

Détection de clefs pour l'interconnexion et le nettoyage de jeux de données

Résumé : Cet article propose une méthode d’analyse de jeux de données du Web publiés en RDF basée sur les dépendances de clefs. Ce type particulier de dépendances fonctionnelles, largement étudié dans la théorie des bases de données, permet d’évaluer si un ensemble de propriétés constitue une clef pour l’ensemble de données considéré. Si c’est le cas, il n’y aura alors pas deux instances posséd...

متن کامل

Nettoyage des données XML : combien ça coûte ?

Résumé. L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d’un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préa...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006